(网经社讯)4月22日,蚂蚁集团百灵大模型团队推出新款Instruct模型Ling-2.6-flash。据网经社AI台(AI.100EC.CN)获悉,该模型总参数量1040亿,激活参数量74亿,采用混合线性架构,是一种高度稀疏化的MoE设计。模型已通过API开放,输入每百万tokens定价0.1美元,输出0.3美元,首周提供免费试用。
此前一周,一个名为Elephant Alpha的匿名模型在OpenRouter平台上线,调用量迅速攀升,连续多日位列Trending榜首,日均tokens调用量达100亿级别,周增长超过5000%。百灵今日确认,Elephant Alpha正是Ling-2.6-flash的匿名测试版本。
在性能方面,Ling-2.6-flash在4卡H20环境下推理速度最快可达每秒340个tokens,稳定输出为每秒215个tokens。其Prefill吞吐量达到Nemotron-3-Super的2.2倍。在Artificial Analysis的完整评测中,该模型仅消耗1500万tokens完成全部评测任务,而同类模型需要1.1亿tokens以上,消耗约为后者的十分之一。此外,模型针对Agent场景做了定向增强,在BFCL-V4、TAU2-bench、SWE-bench Verified等多项基准测试中达到同尺寸模型的最佳水平。
从行业对比来看,MoE架构已成为大模型的主流技术路线。DeepSeek-V3总参数6710亿,激活参数370亿;阿里通义千问Qwen3.5-35B-A3B总参数350亿,激活参数30亿;字节跳动豆包2.0 Pro总参数7440亿,激活参数约40至44亿。各家都在围绕激活参数优化,试图在模型能力与推理成本之间寻找更优平衡点。当模型厂商纷纷将成本效率作为核心卖点时,用户在实际业务场景中究竟更看重单位token成本,还是模型解决复杂任务的鲁棒性?这个问题的答案,可能比任何技术参数都更能决定下一代大模型的市场走向。


































.png)


